Módulo 4 - Geoestatística

A geoestatística é uma abordagem estatística voltada para a análise de fenômenos espaciais, permitindo a modelagem e predição de variáveis contínuas distribuídas geograficamente. Essa metodologia baseia-se na premissa de que os valores observados em pontos próximos tendem a ser mais semelhantes entre si do que aqueles mais distantes, um conceito conhecido como dependência espacial.

Embora amplamente utilizada em áreas como geologia, ciências ambientais, agricultura de precisão e estudos de recursos hídricos, a geoestatística também desempenha um papel estratégico em epidemiologia e vigilância em saúde.

Na vigilância em saúde, os profissionais frequentemente lidam com dados que possuem um componente espacial claro. Por exemplo, a propagação de doenças transmitidas por vetores, como a dengue, não ocorre de forma aleatória, mas tende a se concentrar em áreas onde as condições ambientais favorecem a proliferação do mosquito. No entanto, nem sempre é possível coletar dados em todos os locais de interesse, o que torna a geoestatística uma ferramenta essencial. Por meio de suas técnicas, é possível estimar valores em locais não amostrados com base nas observações disponíveis.

No contexto da vigilância em saúde, a geoestatística pode ser aplicada em diferentes áreas:

Vigilância Epidemiológica: Mapear a incidência de doenças transmissíveis, como dengue, zika ou chikungunya, identificando áreas de maior risco para direcionar intervenções preventivas e controle vetorial.

Vigilância Ambiental: Avaliar a qualidade da água ou do ar em diferentes regiões, prever áreas com maior probabilidade de contaminação e compreender a dispersão espacial de vetores de doenças, como a distribuição de ovos do Aedes aegypti em ovitrampas.

Saúde do Trabalhador: Identificar regiões com maior exposição a fatores de risco ambientais que possam afetar a saúde ocupacional, como áreas próximas a indústrias ou locais com alta poluição atmosférica.

Ao longo deste módulo, você aprenderá a utilizar ferramentas geoestatísticas no R para explorar dados espaciais, gerar mapas interpolados e interpretar resultados que possam subsidiar ações estratégicas em saúde pública.

Conceitos e objetivos

Os dados analisados pela geoestatística geralmente são representados por coordenadas geográficas (latitude e longitude) associadas a uma variável de interesse, como o número de casos de uma doença, níveis de poluição do ar, concentrações de contaminantes em corpos d’água ou indicadores socioambientais. A capacidade de explorar a distribuição espacial desses dados possibilita uma compreensão mais profunda dos fenômenos que afetam a saúde da população.

Os principais objetivos da geoestatística aplicados à vigilância em saúde incluem:

  1. Analisar a distribuição espacial dos dados amostrados e identificar padrões ou tendências dentro da área de estudo. Isso permite, por exemplo, detectar áreas de maior risco de ocorrência de doenças, zonas de exposição ambiental crítica ou áreas vulneráveis a desastres naturais.

  2. Estimar valores em locais não amostrados com base nas observações disponíveis. Por meio de técnicas de interpolação é possível criar mapas contínuos que representam a distribuição do fenômeno analisado em toda a região, mesmo onde não há dados coletados diretamente.

De modo geral, outros exemplos podem caracterizar a aplicação da geoestatística em saúde, como veremos a seguir.

Figura 48: Interpolação geoestatística do teor de argila no solo na Fazenda Canchin (São Carlos - SP).

Figura 48: Interpolação geoestatística do teor de argila no solo na Fazenda Canchin (São Carlos - SP).

A Figura 48 ilustra um exemplo da aplicação da geoestatística para estimar o teor de argila no solo na Fazenda Canchin, em São Carlos - SP. Diferentes métodos de interpolação são utilizados para prever os valores do teor de argila no solo em locais não amostrados, destacando as variações espaciais da variável estudada.

Figura 49: Distribuição das estações pluviométricas no município do Rio de Janeiro.

Figura 49: Distribuição das estações pluviométricas no município do Rio de Janeiro.

A Figura 49 exibe o mapa com as localizações das estações de monitoramento pluviométrico na cidade do Rio de Janeiro. Os pontos azuis representam as estações onde há medições da precipitação, enquanto os triângulos verdes indicam áreas sem medições diretas. A partir desses dados, é possível utilizar técnicas de interpolação geoestatística para estimar a precipitação em toda a cidade, permitindo uma análise mais completa da variabilidade espacial das chuvas. Esse tipo de estudo é fundamental para previsão de eventos extremos, planejamento de drenagem urbana e mitigação de impactos de enchentes.

Figura 50: Interpolação geoestatística da precipitação mensal no município do Rio de Janeiro (2008), baseada na metodologia de modelagem espacial aplicada por Teixeira & Cruz (2010).

Figura 50: Interpolação geoestatística da precipitação mensal no município do Rio de Janeiro (2008), baseada na metodologia de modelagem espacial aplicada por [Teixeira & Cruz (2010)](https://www.scielo.br/j/csp/a/gxkWMccQ8wGD648nL8qGqSs/?format=pdf&lang=en).

Já a Figura 50 apresenta a interpolação geoestatística da precipitação mensal na cidade do Rio de Janeiro ao longo do ano de 2008. Utilizando dados de estações pluviométricas distribuídas pelo município, foi possível estimar a precipitação em áreas não medidas. Cada mapa representa um mês do ano, permitindo a visualização da variação espacial das chuvas. As regiões em tons avermelhados indicam os locais com maior índice pluviométrico, enquanto as áreas em amarelo apresentam menor precipitação. Esse tipo de análise é essencial para compreender padrões sazonais e subsidiar o planejamento urbano e a gestão de riscos climáticos.

Padrões espaciais: Efeitos de primeira e segunda ordem

Ao analisar fenômenos espaciais em saúde pública, não estamos apenas interessados onde os eventos ocorrem, mas também porque eles se distribuem de determinada forma. Para isso, é fundamental compreender os padrões espaciais que podem influenciar a sua ocorrência.

Esses padrões podem ser explicados pela combinação de dois tipos de efeitos: efeitos de primeira ordem, que captam variações mais amplas, e efeitos de segunda ordem, que revelam relações locais, conforme visto nos módulos 2 e 3.

Vamos entender esses conceitos no uso da geoestatística.

Efeito de primeira ordem

O efeito de primeira ordem refere-se à variação do valor médio do fenômeno analisado ao longo do espaço, indicando uma tendência global, ou seja, variações médias de grande escala no território analisado.

Um exemplo comum de efeito de primeira ordem é a temperatura média em uma região, onde a temperatura tende a aumentar ou diminuir de forma contínua em função da latitude, altitude ou até proximidade do oceano. Esse efeito pode ser representado por um gradiente térmico no espaço, mesmo sem considerar interações locais.

Em termos matemáticos, o efeito de primeira ordem está relacionado à função média do processo espacial, representada por:

Y(s)=μ(s)+e(s)

Onde:

  • μ(s) representa a tendência espacial;
  • e(s) representa a variação residual ou o erro.

Efeito de segunda ordem

O efeito de segunda ordem, por sua vez, está associado à dependência espacial entre pontos próximos. Ou seja, descreve como as observações feitas em locais geograficamente vizinhos tende a apresentar valores semelhantes (estrutura de correlação espacial).

Enquanto o efeito de primeira ordem captura tendências globais (padrões amplos), o efeito de segunda ordem revela padrões locais ou variações em pequena escala, que geralmente são detectadas ao observar a correlação espacial entre os pontos. Um exemplo comum é a precipitação, onde áreas vizinhas apresentam volumes de chuvas similares. Isso se dá devido à continuidade espacial do fenômeno.

Esse tipo de efeito pode ser analisado por meio da função de covariância espacial ou do semivariograma, técnicas que quantificam a relação entre pontos geograficamente próximos.

É fundamental saber distinguir esses dois efeitos ao elaborar modelos espaciais. Enquanto o efeito de primeira ordem pode ser tratado por funções de tendência, o efeito de segunda ordem requer modelagem da estrutura de dependência espacial, como krigagem e interpolação geoestatística. Veremos mais sobre isso adiante.

A análise conjunta desses efeitos permite a produção de estimativas mais precisas e uma melhor interpretação dos padrões espaciais subjacentes a diversos fenômenos naturais e ambientais, muitas vezes presentes na temática da saúde pública.

Por que essa distinção importa na vigilância em saúde?

Porque os efeitos de primeira ordem ajudam a identificar tendências gerais, como a maior ocorrência de doenças em regiões mais urbanizadas ou com piores indicadores socioeconômicos. Já os efeitos de segunda ordem revelam padrões locais que podem indicar áreas de risco ou a ocorrência de surtos.

Reconhecer essa diferença é essencial para evitar interpretações equivocadas e permite orientar melhor as ações de vigilância, alocação de recursos e planejamento de intervenções.

No próximo tópico, veremos como esses efeitos podem ser explorados na prática.

Análise exploratória do efeito de primeira ordem

A análise exploratória é o primeiro passo na investigação de dados espaciais. Ela permite identificar padrões e tendências que ajudam a diferenciar os efeitos de primeira e segunda ordem. Para isso, a visualização de dados ajuda a compreender a distribuição espacial e a intensidade do fenômeno em estudo.

No caso do efeito de primeira ordem, buscamos identificar variações na intensidade do fenômeno ao longo do espaço. As principais ferramentas para essa análise incluem:

  • Mapas de distribuição espacial: Representam a localização dos pontos amostrados e a intensidade do fenômeno estudado. São úteis para visualizar padrões globais e regiões com maior ou menor concentração do evento analisado.

  • Gráficos de dispersão entre a variável de interesse (Y(s)) versus coordenadas espaciais (por exemplo, latitude e longitude): Auxiliam na detecção de tendências espaciais, permitindo relacionar a variável de interesse com coordenadas e verificar se há aumento ou diminuição sistemática dos valores a depender da direção.

Vamos acompanhar alguns exemplos em seguida.

Figura 51: Medidas pluviométricas em 143 estações monitoradoras no estado do Paraná.

Figura 51: Medidas pluviométricas em 143 estações monitoradoras no estado do Paraná.

A Figura 51, mostra as medições de chuvas realizadas em 143 estações de monitoramento no estado do Paraná. Os gráficos de dispersão exibem a distribuição espacial dessas estações com base em coordenadas X e Y, representando a localização dos pontos de medição.

O gráfico à esquerda, exibe a localização das estações pluviométricas no estado do Paraná, destacando os pontos de medição (em vermelho). Já com essa visualização é possível identificar a densidade e a cobertura espacial dos pontos de medição para, assim, ter uma compreensão da rede de monitoramento. Já o gráfico à direita apresenta uma diferenciação por cores, que pode indicar variações na precipitação medida. As cores distintas (vermelho, amarelo, verde e azul) sugerem possíveis agrupamentos ou padrões espaciais na distribuição dos dados.

Essas representações visuais ajudam a compreender se há zonas com maior ou menor volume de chuva, padrões espaciais consistentes ou necessidade de melhorar a cobertura das estações na rede de monitoramento.

Agora, vamos para outro exemplo.

Figura 52: Analisando a variação da intensidade da chuva segundo Latitude (Y) e Longitude (X).

Figura 52: Analisando a variação da intensidade da chuva segundo Latitude (Y) e Longitude (X).

A Figura 52 apresenta diferentes visualizações de um conjunto de dados espaciais, também no estado do Paraná. São elas:

  • O mapa (superior esquerdo) mostra a distribuição espacial dos pontos de medição, com símbolos e cores que podem representar diferentes faixas de precipitação (ou outro evento ambiental).

  • O gráfico de dispersão (superior direito), a coordenada Y versus data, revela uma tendência de redução dos valores ao longo do eixo norte-sul (coordenada Y), principalmente a medida que a coordenada Y aumenta (gradiente espacial).

  • O outro gráfico de dispersão (inferior esquerdo), que relaciona a coordenada X com a variável de interesse, mostra um padrão de tendência que pode indicar variações sistemáticas ao longo do eixo leste-oeste (coordenada X).

  • O histograma (inferior direito) mostra a distribuição de frequência dos valores analisados, sugerindo que os dados seguem uma distribuição aproximadamente normal, porém com uma leve assimetria.

O que podemos concluir?

A análise exploratória mostrou que os dados possuem boa cobertura territorial e tendências espaciais claras (com tendências nos eixos X e Y) indicando a presença de efeitos de primeira ordem. Esses padrões ajudam a identificar regiões com maior risco para determinados agravos, como áreas com alta pluviosidade associadas a surtos de dengue, ou zonas de menor temperatura com maior incidência de síndromes respiratórias. Já o histograma dos dados a entender a distribuição dos valores da variável medida, fornecendo insights sobre sua dispersão e comportamento estatístico. Para a vigilância em saúde, essa etapa inicial é essencial: ela orienta onde priorizar investigações, planejar ações de campo e alocar recursos de forma mais eficiente.

Análise exploratória do efeito de segunda ordem

Como vimos antes, os efeitos de segunda ordem refletem a dependência espacial entre observações próximas. Em outras palavras, eles ajudam a identificar se há padrões locais nos dados, uma característica essencial para a detecção de áreas de risco, surtos e clusters de agravos na vigilância em saúde.

Para investigá-los, precisaremos aprofundar alguns conceitos e ferramentas como o covariograma e o variograma:

  • Covariograma: Mede a covariância espacial entre pares de pontos em função da distância. Essa medida permite avaliar a correlação entre locais distintos.

  • Variograma: Analisa a variabilidade espacial do fenômeno, quantificando como as diferenças entre valores observados aumentam com a distância. É uma ferramenta essencial para modelagem geoestatística.

No contexto da vigilância em saúde, essa abordagem exploratória é fundamental para orientar a escolha dos modelos espaciais mais adequados e garantir interpretações mais precisas dos dados analisados. Veremos mais desses conceitos logo mais adiante.

A análise de processos espaciais pode ser simplificada ao considerar certas propriedades estatísticas, como a estacionariedade e a isotropia:

  • Estacionariedade: supõe que as propriedades estatísticas do processo não dependem da localização em si, mas apenas da separação entre os pontos. Nesse caso:

    • A média do processo é constante em todo o espaço:

E(Y(s))=μ,s

  • A variância da diferença entre valores em dois pontos depende apenas da distância h, e não da localização:

Var(Y(s+h)Y(s))=2γ(h)

para a qual 2γ(h) é chamado de variograma, e γ(h) representa o semi-variograma.

  • A covariância entre dois pontos depende apenas do deslocamento entre eles:

C(si,sj)=C(sisj)=C(h)

para a qual C(h) representa o covariograma do processo.

  • Isotropia: Supõe que suas propriedades estatísticas não variam em relação à direção. Isso significa que a covariância entre dois pontos depende apenas da distância euclidiana entre eles:

C(si,sj)=C(sisj)=C(h)

para a qual denota a distância euclidiana. Em um processo isotrópico, a correlação espacial não depende da orientação, apenas da magnitude da separação entre os pontos.

Essas suposições, quando verificadas, permitem aplicar modelos mais simples e eficientes — o que é especialmente útil em contextos de rotina da vigilância, onde é preciso equilibrar robustez estatística com agilidade na produção de informações. Contudo, vamos detalhar uma pouco mais os conceitos técnicos.

Variograma, Covariograma e Correlograma

Retomando ao conceito, o variograma mede como a semelhança entre os valores observados diminui com o aumento da distância entre os pontos. Em outras palavras, o variograma nos ajuda a responder: “até que ponto os dados estão espacialmente relacionados?”

O variograma empírico é a estimativa prática do variograma baseada nos dados observados. Ele calcula, para diferentes distâncias h, a média das diferenças quadráticas entre valores de pontos separados por essa distância.

Um estimador para o variograma empírico é dado pela fórmula:

2γ2(h)=1n(h)sisj=h(y(si)y(sj))2

para a qual:

  • γ2(h) é o semi-variograma para a distância h;

  • n(h) é o número de pares de pontos separados pela distância h;

  • y(si) e y(sj) são os valores observados nos pontos si e sj, respectivamente;

  • A soma é realizada sobre todos os pares de observações que possuem uma separação espacial h.

Essa função descreve como a variabilidade dos dados muda com a distância e, em geral:

  • Para pequenas distâncias h, espera-se que os valores de y(s) sejam mais similares, resultando em valores menores de γ(h).

  • À medida que a distância h aumenta, a variabilidade também aumenta, refletindo uma menor correlação espacial entre os pontos.

  • De modo geral, o variograma se estabiliza a partir de uma certa distância, atingindo um patamar, indicando que os valores deixam de apresentar dependência espacial significativa.

A Figura 53 mostra um exemplo de variograma empírico construído a partir de dados de precipitação no estado do Paraná. Essa curva representa a relação entre a semivariância (no eixo vertical) e a distância entre os pontos (eixo horizontal).


Figura 53: Variograma empírico para os dados de chuva do Paraná.

Figura 53: Variograma empírico para os dados de chuva do Paraná.

A interpretação desse gráfico pode ser feita considerando alguns aspectos importantes:

  • Tendência Geral: A semivariância aumenta à medida que a distância cresce, o que indica que pontos próximos têm valores mais semelhantes, enquanto pontos mais distantes apresentam maior variabilidade. Após atingir um pico (cerca de 250-300 unidades de distância), a semivariância começa a diminuir, o que pode indicar ciclo espacial, anisotropia ou um problema na estimativa do variograma.

  • Alcance (Range): Em um variograma típico, a semivariância atinge um platô (sill), indicando a distância a partir da qual os valores deixam de estar correlacionados. Na figura, não há um platô claramente definido, mas o pico da semivariância pode indicar um alcance em torno de 250-300.

  • Comportamento Anômalo: A queda na semivariância após o pico pode indicar que o processo espacial subjacente não é puramente aleatório e pode haver alguma estrutura cíclica na variabilidade. O último ponto da curva parece um outlier, o que pode ser devido a um número reduzido de pares de pontos naquela distância, afetando a estimativa.

O variograma empírico é usado para ajustar modelos teóricos, como o esférico, exponencial ou gaussiano. Esses modelos são fundamentais para métodos de interpolação geoestatística como a krigagem, frequentemente aplicada em saúde pública para estimar indicadores em áreas não amostradas ou com falhas de notificação.

Agora, vamos entender a relação entre variograma, covariograma e correlograma. Acompanhe abaixo na Figura 54.

Figura 54: Comparação entre Covariograma Correlograma e Variograma.

Figura 54: Comparação entre Covariograma Correlograma e Variograma.

Na Figura 54 há três gráficos fundamentais na análise geoestatística e na modelagem de dependência espacial: covariograma, correlograma e variograma. Cada um deles descreve de maneira diferente a relação entre os valores de uma variável em função da distância h entre pontos de amostragem.

Covariograma (C(h)):

  • Mede a covariância espacial entre pares de pontos separados por uma distância h.

  • Possui valores altos para pequenas distâncias, indicando forte correlação entre pontos próximos.

  • Decresce à medida que h aumenta, pois a influência espacial diminui.

Correlograma (ρ(h)):

  • Representa a correlação espacial normalizada (coeficiente de correlação) entre pontos separados por h.

  • Tem comportamento semelhante ao covariograma, mas varia entre -1 e 1, sendo útil para comparar diferentes variáveis e escalas.

Variograma (γ(h)):

  • Mede a dispersão dos valores em função da distância, sendo definido como a metade da variância das diferenças entre pontos separados por h.

  • Cresce conforme a distância aumenta, refletindo maior variabilidade entre pontos mais distantes.

  • Tende a se estabilizar em um patamar (sill), representando a variância total do processo.

As principais diferenças entre eles são:

  • Correlograma e covariograma são usados para descrever a dependência direta entre pontos, enquanto o variograma descreve a variabilidade.

  • Para um processo espacial estacionário, o covariograma, correlograma e variograma fornecem informações semelhantes sobre a dependência espacial dos dados.

  • O covariograma e o correlograma possuem a mesma forma, mas com uma diferença importante: o correlograma é normalizado, tendo seu máximo igual a 1.

  • Variograma e covariograma estão diretamente relacionados, porém de maneira invertida, pois mede a variabilidade em vez da similaridade.

  • Enquanto o covariograma começa com um valor máximo de σ2 quando h=0 e diminui até se aproximar de zero, o variograma inicia em zero e cresce até atingir o máximo de σ2.

Estrutura do variograma

Um variograma possui uma estrutura composta por três elementos fundamentais que ajudam a entender a estrutura de dependência espacial de uma variável regionalizada. Esses componentes são mostrados na Figura 55.

Figura 55: Principais Componentes do Variograma e sua interpretação.

Figura 55: Principais Componentes do Variograma e sua interpretação.

Abaixo, destacamos suas principais características:

  • Efeito Pepita (Nugget): Representa as variações aleatórias, erros de medição ou pequenas flutuações nos dados devido ao processo de coleta. É o valor do variograma quando h=0, expresso por:

γ(0)=τ2

  • Patamar (Sill): Corresponde ao valor máximo da semivariância. Indica o ponto a partir do qual as observações deixam de estar espacialmente correlacionadas. Ou seja, a variabilidade se estabiliza.

  • Amplitude (Range): Corresponde a distância a partir da qual a correlação entre os pontos se torna insignificante. No gráfico, é o ponto no eixo das distâncias (x) onde a curva do variograma atinge o sill, indicando que além dessa distância, as observações são essencialmente independentes.

Variogramas para modelos isotrópicos

Como vimos, o variograma é uma ferramenta central na geoestatística. Para modelar a dependência espacial de um fenômeno, utiliza-se um modelo teórico ajustado ao variograma empírico. Em casos em que se assume que a dependência espacial é a mesma em todas as direções, isto é, o processo é isotrópico, alguns modelos são amplamente utilizados:

Modelo Gaussiano: Caracteriza-se por um crescimento suave e gradual da semivariância, apresentando um comportamento parabólico próximo à origem. Esse modelo é adequado para processos espaciais contínuos e suavizados.

γ(h)=σ2(1exp{(hϕ)2}),h>0

Modelo Exponencial: Possui um crescimento mais acentuado no início, indicando forte dependência espacial em curtas distâncias. No entanto, a aproximação ao patamar ocorre de forma mais lenta, sendo útil para fenômenos com correlação espacial de curto alcance.

γ(h)=σ2(1exp{hϕ}),h>0

Modelo Esférico: Apresenta um crescimento inicial rápido e, posteriormente, atinge o patamar de forma mais abrupta, tornando-se uma boa escolha para fenômenos que possuem um limite bem definido de correlação espacial.

γ(h)={σ2,h>ϕσ2{23(hϕ)12(hϕ)3},0<h<ϕ

A Figura 56 apresenta a comparação gráfica entre os três modelos. Cada curva mostra como diferentes estruturas espaciais se comportam em relação à distância entre os pontos:

  • O modelo gaussiano, por exemplo, apresenta um crescimento lento e um comportamento parabólico próximo a origem e fornece um modelo para fenômenos extremamente contínuos.

  • O modelo exponencial cresce mais rapidamente perto da origem mas a aproximação da função ao patamar é mais lenta.

  • Frequentemente os modelos são ajustados aos dados observados no variograma empírico, apenas por uma comparação visual.

Acompanhe na Figura 56:

Figura 56: Comparação entre Modelos de Variograma (Esférico, Exponencial e Gaussiano).

Figura 56: Comparação entre Modelos de Variograma (Esférico, Exponencial e Gaussiano).

Já a Figura 57 representa um exemplo que vimos do Estado do Paraná. Na figura é representado o ajuste dos três modelos.

Figura 57: Ajuste de modelos de variograma aos dados de chuva no Paraná.

Figura 57: Ajuste de modelos de variograma aos dados de chuva no Paraná.

Com base na figura, podemos dizer que:

  • O modelo exponencial apresenta um ajuste mais rápido nas curtas distâncias, capturando melhor a estrutura local dos dados.

  • O modelo gaussiano cresce de maneira mais suave e contínua, sendo adequado para fenômenos com transição gradual da dependência espacial.

  • O modelo esférico se ajusta bem até uma determinada distância, após a qual a semivariância estabiliza rapidamente. Característica útil para representar fenômenos com dipersão limitada.

Agora, vamos ver alguns exemplos que ilustram como esses conceitos são utilizados na análise de dados espaciais em saúde pública e outras áreas.

Algumas Aplicações da Geoestatística

A geoestatística é uma ótima estratégia para analisar fenômenos ambientais que afetam direta ou indiretamente a saúde da população. A seguir, apresentamos dois exemplos didáticos de aplicação geoestatística: o primeiro com base em dados de temperatura, que ilustra o potencial dessas técnicas para avaliar padrões espaciais e temporais de variáveis ambientais, e o segundo utilizando dados de oviposição do Aedes, evidenciando o potencial dessas técnicas para avaliar padrões espaciais e temporais relevantes para a vigilância em saúde.

Aplicação 1

A Figura 58 mostra uma aplicação da geoestatística utilizando dados de temperatura coletados em uma região do Oceano Pacífico, localizada ao longo da costa da Califórnia. O objetivo da análise é compreender a variabilidade espacial e temporal da temperatura ao longo do período estudado.

As medições foram realizadas em uma grade espacial regular de 10×4 pontos (longitude x latitude), com uma resolução espacial de 0,5 graus, totalizando 40 pontos de amostragem (n=40). Os dados foram registrados a cada 8 dias, no intervalo de julho de 2000 a maio de 2005, resultando em 240 observações no tempo (T=240).

Figura 58: Localização da grade de amostragem e série temporal da temperatura no Oceano Pacífico.

Figura 58: Localização da grade de amostragem e série temporal da temperatura no Oceano Pacífico.

O gráfico à esquerda exibe a localização da grade de amostragem sobre um mapa da região costeira da Califórnia. Já o gráfico à direita apresenta a série temporal da temperatura (°C) ao longo do período analisado, destacando padrões sazonais recorrentes.

Esse tipo de informação é essencial para compreender a dinâmica térmica regional, permitindo o uso de modelos geoestatísticos para estimar temperaturas em áreas não monitoradas, identificar tendências sazonais e avaliar possíveis impactos ambientais e em saúde associados às mudanças climáticas.

Aplicação 2

A Figura 59 representa uma aplicação da geoestatística que tem como objetivo monitorar a presença do Aedes aegypti, vetor de doenças como dengue, zika e chikungunya, por meio da contagem de ovos depositados em armadilhas de oviposição instaladas em uma área urbana, mais especificamente no bairro de Higienópolis na cidade do Rio de Janeiro.

As armadilhas foram distribuídas estrategicamente ao longo do bairro para capturar padrões espaciais da oviposição do mosquito. Os dados foram coletados em base semanal, seguindo o calendário epidemiológico, durante o período de setembro de 2006 a março de 2008.

A imagem à esquerda apresenta uma visão aérea da área onde as armadilhas foram instaladas. O mapa à direita exibe a distribuição espacial das armadilhas, com diferentes formas representando os tipos de armadilhas e localização de espaço estratégico para coleta de ovos.

Figura 59: Distribuição espacial de armadilhas para Aedes aegypti e mapeamento da área de estudo da pesquisa de Reis et al (2010).

Figura 59: Distribuição espacial de armadilhas para Aedes aegypti e mapeamento da área de estudo da pesquisa de Reis et al (2010).

Essa abordagem possibilitam a aplicação de técnicas geoestatísticas, como a elaboração de variogramas experimentais e interpolação espacial por krigagem. Dessa forma, é possível gerar mapas preditivos que representem padrões espaciais e permitam à vigilância em saúde em identificar de áreas de maior risco para proliferação do vetor, permitindo o desenvolvimento de estratégias mais eficazes para o controle da transmissão de arboviroses.

Agora, entraremos na introdução teórica da geoestatística, abordando conceitos fundamentais e técnicas de modelagem espacial e, em seguida, aplicaremos esses conceitos a dados reais.

Modelagem em Geoestatística

Na modelagem geoestatística, costuma-se assumir que o fenômeno que estamos analisando (como, por exemplo, temperatura, número de casos ou concentração de poluentes) segue um processo Gaussiano espacial, representado por:

Y(.)PG(μ(.),c(.,.))

para a qual:

  • μ(.) representa a tendência do processo (efeito de primeira ordem);
  • Y(.) e c(.,.) é a função de covariância associada, responsável por descrever a estrutura de dependência espacial (efeito de segunda ordem).

A tendência espacial pode ser modelada por diferentes abordagens, como:

  • Funções polinomiais das coordenadas geográficas;

  • Funções suaves, como thin plate splines;

Ou ainda o uso de covariáveis ambientais ou demográficas medidas nas mesmas localizações da variável de interesse.

Propriedades importantes para a modelagem

  • Os variogramas e covariogramas empíricos fornecem estimativas da estrutura de covariância, assumindo alguma forma de estacionaridade.

  • Caso o processo não seja estacionário, os variogramas e covariogramas podem ser influenciados por efeitos de primeira ordem.

  • A matriz de covariância deve ser simétrica e positiva definida, condição necessária para garantir validade estatística das estimativas.

  • A matriz de covariância é geralmente estimada por modelos paramétricos, como as funções de covariância exponencial, gaussiana, Matérn, entre outras.


Krigagem

O principal objetivo da geoestatística é prever valores de uma variável com continuidade espacial em locais onde não há observações diretas, o que é altamente relevante para a vigilância em saúde em territórios com lacunas de dados.

A técnica utilizada para realizar essa previsão é conhecida como krigagem. O termo krigagem deriva do geólogo sul-africano D. G. Krige, que desenvolveu a primeira versão do método. O método consiste em um processo de interpolação que estima o valor em uma localização não observada s, denotado por Y^(s).

Em sua forma mais simples, é assumido que:

y^(s)=μ^(s)

Nesse caso, estamos considerando apenas efeitos globais, ignorando efeitos locais. Incorporar a função de covariância C permite melhorar significativamente a acurácia das previsões, levando em conta efeitos locais.

Os principais métodos de krigagem são:

  • Krigagem simples: assume média constante conhecida;

  • Krigagem ordinária: assume média constante, mas desconhecida;

  • Krigagem universal: incorpora uma tendência explícita no modelo;

  • Krigagem bayesiana: utiliza inferência probabilística, sendo apropriada quando há incerteza sobre parâmetros ou estrutura espacial.


Krigagem Universal

A krigagem universal é um método que assume a existência de um componente de tendência no processo, ou seja:

μ(s)=x(s)β

para a qual:

  • x(s) é um vetor de covariáveis (ou funções de base);
  • β é um vetor de parâmetros a serem estimados.

Portanto, a estimativa y^(s) é obtida por meio de uma combinação linear ponderada dos valores observados em locais previamente amostrados, de acordo com a equação:

y^(s)=i=1nλi(s)y(si)

para a qual:

  • λi(s) representa o peso atribuído a cada observação;
  • y(si) sendo esse peso uma função da covariância espacial.

Este modelo permite incorporar tanto a tendência global quanto a estrutura de dependência espacial dos dados, tornando-se uma ferramenta essencial para a interpolação e predição geoestatística.


Considerações Gerais sobre a Krigagem:

  • É importante destacar que a qualidade das previsões obtidas por krigagem depende da escolha adequada dos modelos utilizados para representar a tendência e o variograma.

  • Para avaliar a eficácia do procedimento, um método amplamente utilizado é a validação cruzada, que permite verificar a precisão das previsões geradas pelo modelo.

  • No processo de validação cruzada, cada valor observado y(si) é temporariamente removido do conjunto de dados. Em seguida, uma previsão para essa localização é realizada utilizando apenas as demais observações disponíveis.

  • Como resultado, obtemos um conjunto de n erros de previsão, calculados a partir da diferença entre os valores observados e preditos.

  • A análise desses erros possibilita uma avaliação detalhada do desempenho da krigagem. Se necessário, ajustes podem ser realizados nos parâmetros do variograma, na superfície de tendência ou em outros aspectos do modelo para melhorar a precisão das previsões.

Essa etapa é fundamental para garantir que os produtos gerados (por exemplo, mapas de risco ou superfícies interpoladas) representem adequadamente a realidade do território, permitindo que ações em saúde sejam orientadas com maior segurança e precisão.

Para ilustrar a aplicação da krigagem, vamos seguir um exemplo utilizando os dados de precipitação e, em seguida, vamos para a prática no R. Vamos lá?

Exemplo de aplicação

Modelo Espacial

Neste exemplo, vamos retomar com os dados de chuva no estado do Paraná. Vamos acompanhar a estruturação do modelo da precipitação como uma função da localização geográfica (latitude e longitude), além de uma componente espacial que captura variações locais:

Podemos ajustar o seguinte modelo espacial:

chuva(s)=β0+β1lat(s)+β2long(s)+Z(s)+ε(s)

para a qual:

  • Z(.) é um processo Gaussiano espacial com média zero e estrutura de correlação ρ(.;ϕ), definida pela função exponencial, com variância σ2.

  • O termo ε(.) representa o erro de medida (efeito pepita), assumindo uma distribuição normal: ε(.)N(0,τ2)

Esse modelo permite capturar a dependência espacial da precipitação no Paraná, considerando a influência da latitude e longitude, além de variações locais representadas pelo processo espacial Z(s).

Modelo Ajustado

Após o ajuste do modelo, obtemos as seguintes estimativas para os parâmetros:

chuva(s)=421.80.15lat(s)0.39long(s)+Z(s)+ε(s)

para a qual:

  • Z(s) é um processo Gaussiano com média zero e estrutura de correlação exponencial, com parâmetro de alcance ϕ=130 e variância σ2=685.

  • O termo ε(s) representa o efeito pepita, cuja variância é τ2=480.

Interpretação

Na Figura 60, é apresentado o mapa de interpolação espacial da precitação. Cada ponto preto indica uma localização de observação utilizada no ajuste do modelo, ou seja, indicam as localizações onde foram feitas medições reais da chuva.

Figura 60: Mapa interpolado de precipitação usando Krigagem Universal.

Figura 60: Mapa interpolado de precipitação usando Krigagem Universal.

A interpolação espacial revela um gradiente de precipitação, com valores mais elevados na região sul (representados pelas áreas em vermelho) e mais baixos na região norte (tons mais claros). Essa variação pode ser explicada por fatores geográficos, como altitude e latitude, ou por padrões climáticos regionais.

O efeito pepita (τ2) indica a presença de variabilidade não explicada pelo modelo espacial, possivelmente relacionada a erros de medição ou fatores de pequena escala. A estrutura de correlação definida pelo variograma exponencial permite capturar a dependência espacial dos dados, garantindo que as estimativas interpoladas reflitam padrões reais da precipitação.

Esse tipo de análise é fundamental em vigilância ambiental, planejamento de ações de saúde pública e na gestão territorial de recursos hídricos. Além disso, são essenciais para gestão de recursos hídricos e tomada de decisão em políticas públicas relacionadas ao clima e à agricultura.

Prática em R

Nesta prática, vamos reproduzir uma análise exploratória dos dados de precipitação no estado do Paraná, conforme apresentado nos exemplos anteriores. Esses dados, disponíveis no pacote geoR, referem-se a medições de chuva coletadas em diversas estações meteorológicas distribuídas pelo estado.

A área de estudo compreende todo o território paranaense, onde as medições foram registradas ao longo de um período específico. Esses dados permitem avaliar a distribuição espacial da chuva, identificando padrões de variabilidade e tendências regionais.

Com essa abordagem, buscamos compreender melhor a distribuição espacial da precipitação no Paraná, aplicando métodos geoestatísticos como a análise de semivariogramas e a interpolação por krigagem. Esses procedimentos possibilitam estimar os valores de precipitação em locais sem observações diretas e entender a estrutura espacial da variabilidade climática no estado.

Nesta análise, aplicaremos métodos geoestatísticos para:

  1. Explorar a distribuição espacial das medições de chuva no Paraná;

  2. Ajustar um modelo de semivariograma para descrever a estrutura de dependência espacial;

  3. Interpolar os dados usando krigagem ordinária, gerando um mapa preditivo da distribuição da precipitação.

Ao final, obteremos um mapa interpolado da precipitação, que facilitará a visualização da variação espacial da chuva no estado. Esse tipo de análise é útil para ações de monitoramento climático, planejamento de políticas ambientais e vigilância de agravos sensíveis a variações meteorológicas, como as arboviroses.

# se não estiver instalado, rodar:
install.packages("geoR")
library(geoR)

O comando library(geoR) está carregando o pacote geoR no R. Esse pacote é utilizado para análise geoestatística

# Carregando os dados
data(parana)

# Exibindo a estrutura dos dados
str(parana)

List of 4 $ east , north : num [1:143, 1:2] 403 502 556 573 702 … ..- attr(, “dimnames”)=List of 2 .. ..$ : NULL .. ..$ : chr [1:2] “east” “north” $ data : num [1:143] 306 201 167 163 164 … $ borders : num [1:369, 1:2] 670 664 656 650 643 … ..- attr(, “dimnames”)=List of 2 .. ..$ : NULL .. ..$ : chr [1:2] “east” “north” $ loci.paper : num [1:4, 1:2] 300 648 362 410 484 … - attr(*, “class”)= chr “geodata”

  • data(parana): Carrega o conjunto de dados parana do pacote geoR, que contém medições de precipitação no estado do Paraná.

  • str(parana): Exibe a estrutura dos dados, mostrando o tipo de objeto, as variáveis armazenadas (como coordenadas e valores de precipitação) e sua organização.

# Resumo dos dados
summary(parana)

Number of data points: 143

Coordinates summary east north min 150.1220 70.3600 max 768.5087 461.9681

Distance summary min max 1.0000 619.4925

Borders summary east north min 137.9873 46.7695 max 798.6256 507.9295

Data summary Min. 1st Qu. Median Mean 3rd Qu. Max. 162.7700 234.1900 269.9200 274.4106 318.2300 413.7000

Other elements in the geodata object [1] “loci.paper”

  • summary(parana): fornece um resumo estatístico e espacial do conjunto de dados parana.

Com essa saída, observamos que temos disponível (amostradas) 143 estações pluviométricas no Paraná, incluindo a extensão espacial dos dados com coordenadas mínimas e máximas (east, north), a variação das distâncias entre os pontos e os limites geográficos da área de estudo. Além disso, exibe estatísticas descritivas da precipitação, como mínimo (162.77), mediana (269.92), média (274.41) e máximo (413.70), indicando a distribuição dos valores observados.

par(mfrow = c(1, 2))  # Criar layout com 2 gráficos lado a lado

# Mapa 1: Tamanho dos pontos proporcional à precipitação
plot(parana$coords, pch = 21, bg = "red", cex = parana$data / max(parana$data) * 2,
     main = "Medições de Precipitação", xlab = "X Coord", ylab = "Y Coord")

# Mapa 2: Colorir os pontos de acordo com a quantidade de precipitação
cores <- cut(parana$data, breaks = quantile(parana$data, probs = seq(0, 1, length.out = 5), na.rm = TRUE), 
             labels = c("blue", "green", "yellow", "red"), include.lowest = TRUE)

plot(parana$coords, pch = 21, bg = as.character(cores), 
     main = "Classificação da Precipitação", xlab = "X Coord", ylab = "Y Coord")

  • O primeiro gráfico representa a precipitação pelo tamanho dos pontos.

  • O segundo gráfico representa a precipitação pela cor dos pontos.

Os gráficos apresentam a distribuição espacial das medições de precipitação no estado do Paraná. No primeiro gráfico, o tamanho dos pontos é proporcional à quantidade de chuva registrada, permitindo identificar regiões com maior ou menor precipitação de forma intuitiva. Nota-se uma concentração de chuvas mais intensas na parte central e sul do estado, enquanto áreas no extremo norte apresentam valores menores.

No segundo gráfico, a precipitação foi categorizada em quatro classes representadas por cores: azul (valores mais baixos), verde (médios), amarelo (altos) e vermelho (valores mais elevados). Essa classificação destaca padrões regionais na distribuição das chuvas, evidenciando que áreas no centro-sul do Paraná possuem maior concentração de precipitação elevada, enquanto regiões ao norte apresentam menor volume acumulado.

plot(parana)

plot(parana): gera uma visualização exploratória dos dados de precipitação no Paraná, mostrando diferentes aspectos espaciais e estatísticos através de gráficos e mapas.

Os gráficos exploratórios mostram a distribuição espacial das estações pluviométricas no Paraná, evidenciando variações na precipitação por região. A relação entre os valores de precipitação e as coordenadas sugere um padrão decrescente ao longo da coordenada Y, indicando possível influência da latitude na distribuição da chuva. Já o histograma revela uma distribuição aproximadamente normal, com a maioria dos valores concentrados entre 250 e 350 mm, embora haja leve assimetria. Esses padrões iniciais indicam a presença de estrutura espacial nos dados, justificando o uso de técnicas geoestatísticas para interpolação e análise.

# Ajustar um semivariograma experimental
variograma <- variog(parana)

variog: computing omnidirectional variogram

plot(variograma, main = "Semivariograma Experimental")

  • variograma <- variog(parana): Calcula o semivariograma experimental a partir dos dados de precipitação no Paraná. Um dos maiores objetivos do variograma é medir a dependência espacial entre os pontos, analisando como a variabilidade dos dados muda com a distância.

  • plot(variograma): Gera um gráfico do semivariograma, mostrando a relação entre a distância e a variabilidade dos valores de precipitação. Esse gráfico ajuda a identificar padrões espaciais, como o alcance da dependência espacial e a presença de estruturas de correlação.

O semivariograma experimental apresentado mostra a variação da semivariância em função da distância entre os pontos de medição da precipitação no Paraná. Inicialmente, a semivariância aumenta com a distância, indicando que medições mais distantes possuem maior diferença nos valores de chuva, até atingir um platô em torno de 400 km, o que sugere o alcance da dependência espacial — ou seja, a partir dessa distância, os valores de precipitação deixam de estar correlacionados espacialmente.

# Criar um semivariograma experimental e ajustar um modelo
modelo <- variofit(variograma, cov.model = "spherical")

variofit: covariance model used is spherical variofit: weights used: npairs variofit: minimisation function used: optim variofit: searching for best initial value … selected values: sigmasq phi tausq kappa initial.value “4693.86” “476.53” “0” “0.5” status “est” “est” “est” “fix” loss value: 6635717862.43715

Esse comando está realizando duas etapas essenciais da análise geoestatística:

  • Ajuste do Modelo de Semivariograma: A função variofit() recebe um semivariograma experimental (variograma) e ajusta um modelo teórico para representar a dependência espacial dos dados.

  • Escolha do Modelo Específico: O argumento cov.model = "spherical" define que o modelo esférico será usado para descrever a variação espacial da precipitação. Esse modelo assume que a correlação entre os pontos diminui até atingir um patamar (sill) em uma determinada distância (range).

# Criar uma grade de pontos para interpolação
grid_pred <- expand.grid(
  x = seq(min(parana$coords[,1]), max(parana$coords[,1]), length = 50),
  y = seq(min(parana$coords[,2]), max(parana$coords[,2]), length = 50)
)

Esses comandos criam uma grade regular de pontos dentro da área de estudo para a interpolação da krigagem.

  • seq(min, max, length = 50): Gera 50 valores igualmente espaçados entre os limites mínimo e máximo das coordenadas X e Y do conjunto de dados parana.

  • expand.grid(x, y): Cria uma grade de coordenadas combinando todas as possíveis posições de X e Y, formando uma malha sobre a área de estudo.

Essa grade de pontos servirá como base para calcular os valores interpolados de precipitação nesses locais ainda não amostrados.

# Realizar a krigagem ordinária
krigagem <- krige.conv(parana, locations = grid_pred, krige = krige.control(obj.model = modelo))

krige.conv: results will be returned only for prediction locations inside the borders krige.conv: model with constant mean krige.conv: Kriging performed using global neighbourhood

O comando krige.conv está realizando a krigagem ordinária com base nos dados de precipitação do Paraná.

  • grid_pred: Grade de pontos onde a krigagem irá prever valores de precipitação.

  • krige.control(obj.model = modelo) : Define os parâmetros da krigagem usando o modelo ajustado ao semivariograma.

  • krige.conv(): Executa a krigagem ordinária, gerando previsões para os pontos da grade com base nos dados observados.

Esse comando estima valores de precipitação em locais não amostrados, utilizando a krigagem ordinária baseada no modelo de semivariograma ajustado.

# Criar o mapa de interpolação
image(krigagem, col = terrain.colors(30), main = "Interpolação por Krigagem Ordinária")

A função image plota o mapa da interpolação gerada pela krigagem, exibindo a distribuição espacial dos valores previstos. Usando uma escala de cores (terrain.colors(30)) para representar as variações da variável interpolada (ex.: intensidade da chuva).

Basicamente, esse comando visualiza os resultados da krigagem como um mapa interpolado, onde as cores representam os valores estimados em cada ponto da área de estudo.


Este mapa mostra a distribuição espacial da precipitação no Paraná, gerada por krigagem ordinária. As cores verdes indicam áreas com menor precipitação, enquanto tons amarelos e marrons representam regiões com maior volume de chuva. A região sul/sudoeste parece apresentar os menores valores, enquanto o norte/leste tem níveis mais altos de precipitação, possivelmente devido a fatores climáticos e topográficos.


Considerações finais

Em suma, apesar de complexos os métodos geoestatísticos são ferramentas indispensáveis para a epidemiologia moderna. Ao desvendar os padrões espaciais das doenças, especialmente na área ambiental, eles capacitam os profissionais de saúde a entender melhor os padrões espaciais dos fenômenos contínuos, como por exemplo, temperatura, poluição e chuvas associados a eventos de saúde, transformando dados em inteligência para a ação e contribuindo para a promoção da saúde e a prevenção de doenças de forma mais precisa e estratégica.

Referências

• CHILÈS, Jean-Paul & DELFINER, Pierre; Geostatistics: Modeling Spatial Uncertainty 2012 John Wiley & Sons, Inc.

• CRESSIE, N. A. Statistics For Spatial Data. Revised edition. Iowa State Univesity, New York: A Wiley Interscience Publication, 1993.

• DIGGLE, Peter J.; GIORGI, Emanuele. Model-based geostatistics for global public health: methods and applications. Chapman and Hall/CRC, 2019.

• DIGGLE, Peter J. & RIBEIRO JR, Paulo Justiniano; Model-based Geostatistics Series: Springer Series in Statistics, 2007. (Primeira edição 1999).

• DORMAN, Michael. Learning R for geospatial analysis. Packt Publishing Ltd, 2014.

• ISAAKS and SRIVASTAVA; An Introduction to Applied Geostatistics 1st Edition, 1989.

• REIS, Izabel Cristina et al. Relevance of differentiating between residential and non-residential premises for surveillance and control of Aedes aegypti in Rio de Janeiro, Brazil. Acta Tropica, v. 114, n. 1, p. 37-43, 2010.

• PEBESMA, E.J., 2004. Multivariable geostatistics in S: the gstat package. Computers & Geosciences, 30: 683-691.

• TEIXEIRA, Tatiana Rodrigues de Araujo; CRUZ, Oswaldo Gonçalves. Spatial modeling of dengue and socio-environmental indicators in the city of Rio de Janeiro, Brazil. Cadernos de Saúde Pública, v. 27, p. 591-602, 2011.